查看原文
其他

AI时代,到底需要什么样的存储?

了不起的云计算 了不起的云计算
2024-09-05

大家好,我是老猫。

今天我们来聊聊AI时代,怎么选存储?

大家可能已经意识到了人工智能时代的到来,并确定了其未来潜在的价值和收益。但现在对于企业的一个重要问题是,如何构建支持AI的基础设施?计算能力是该组合中至关重要的一环,但很多公司容易忽视的是另一个重要的因素:存储。

在最新的GPU或云的能力上大量投资,以为您在训练和推理AI模型时提供优势,这很重要,但如果您不能为数据“野兽”提供所需存储能力,那么前面所有的付出也都将白费。

这就需要适合AI应用场景的横向扩展存储技术,它能够帮助企业解决AI新世界所面临的基础设施问题。

Dell Technologies产品经理Tom Wilson一直非常专注于AI工作负载,他将数据比作燃料,计算比作引擎,存储比作油箱。他表示,数据是AI时代所有公司的差异化因素,拥有一个现代化的平台,为公司提供在AI工作流程中使用该数据所需的安全性、存储效率、性能和规模,这也是PowerScale的关键价值之一。

▉ 横向扩展存储有何好处?

Tom Wilson是PowerScale技术的老将,PowerScale是Dell的文件存储解决方案,并在近日已经升级,推出两款新的PowerScale F210和F710闪存阵列,提供AI优化的存储基础设施。利用最新的PowerEdge硬件和OneFS软件,PowerScale被称为是一个“AI就绪数据平台”的关键组件,旨在提供构建AI支持工作负载所需的性能、规模和安全性,无论客户的数据位于何处,无论是在本地、云中还是边缘环境。

Dell是最早支持NVIDIA GPUDirect协议的公司之一,该协议使存储系统能够快速发送和接收数据,而不涉及主机处理器以加速AI工作负载。Wilson回忆说,即使在GPU和云计算将AI带入主流之前,客户就已经在努力应对由于非结构化数据而增加的存储量,但对AI和生成式AI(GenAI)支持的应用程序的需求激增,给现有的存储基础设施带来了更大的压力。

“我们想要帮助客户解决的一个问题是如何在全球范围内可预测地管理大量数据,”Wilson说。“这就是我们创建横向扩展文件系统的原因。”

传统纵向扩展存储可能难以处理AI模型所需的庞大数据量,原因有几个。首先,虽然可以通过向具有自己专用机头单元的存储系统添加更多驱动器来扩展,但这种方法的明显缺点是容量有限,因为硬盘最终会用完空间。

还有一个不太明显的缺点是性能有限。Wilson解释说,随着存储量的增加和添加更多磁盘,企业存储的头部单元将承受越来越大的负载。在纵向扩展系统中,最初几十个TB数据的时候可能对您的需求来说性能很好,但随着添加更多的存储容量,性能并不会增加。Wilson说,在某个时候,存储工作流可能会超出纵向扩展系统所能提供的吞吐量。

相反,横向扩展存储使用集群存储节点,每个节点都有自己的计算和存储容量。向系统添加另一个节点可以提高整个集群的计算能力。“所以当您添加容量时,您不仅仅是通过添加驱动器来扩展;您还在增加性能,”他补充道。

▉ PowerScale有何独到之处?

PowerScale的最新发布的节点F210和F710在上一代全闪存节点的基础上进行了改进,利用最新的PowerEdge平台提供更快的计算能力,以第四代英特尔Xeon Sapphire Rapids CPU的形式。它们还得益于最新的DDR5 DRAM选项,提高了内存速度。更快的PCIe Gen 5总线提供了比前代节点使用的PCIe Gen 3高达四倍的吞吐量。

Wilson解释说,这些硬件改进对AI应用尤其重要。例如,PCIe和SSD接口改进的混合有助于将流媒体读写吞吐量提高一倍——这是影响AI的重要阶段(如模型训练和检查点阶段)的关键性能指标。

另外,1U机箱系统还通过增加所需的容量增加了节点密度,以确保可以轻松容纳AI所需的大量数据。与F600的八个相比,F710有空间容纳10个硬盘,而F210通过引入15Tb驱动器将容量翻倍。

而且系统还具有智能散热机箱——来自Dell PowerEdge硬件的一块专利创新——可以更有效地将空气推送通过系统。Wilson解释说,这有助于保持系统可靠性,同时减少用于冷却的电力,这是数据中心面临巨额电费和拥有总成本挑战时的重要考虑因素,需要为运行和保持AI工作负载所需的服务器、存储和网络设备供电。这对新单元的关键效率提升数字做出了贡献——与上一代产品相比,F710每瓦性能提高了高达90%。

▉ 通过软件提升硬件能力

Dell还更新了PowerScale的OneFS操作系统,以充分利用硬件增强。像线程优化这样的功能有助于加强AI性能。Dell称,在处理许多AI训练和推理应用程序所支持的高并发、低延迟敏感工作负载时,F710的吞吐量比F600提高了2.6倍。

全闪存NVMe驱动器的性能改进意味着我们不一定需要我们以前使用过的相同级别的缓存,”Wilson说。“OneFS优化了与这些NVMe驱动器的通信,使用读锁定等技术,我们还直接从日志写入驱动器。”

OneFS 9.6还为AI工作负载增加了另一个重要能力——使用混合云功能处理AI训练和推理任务的能力。APEX File Storage for AWS随OneFS 9.6推出,而最近OneFS 9.8引入了APEX File Storage for Azure——Dell表示,这为企业用户提供了更大的灵活性和选择。通过在云中运行OneFS,客户可以将他们需要的子集数据移出本地。例如,他们可能选择在将预处理的数据移入云中,以利用他们在本地没有的计算能力。

在云环境中运行PowerScale的一个关键好处是客户可以随身携带他们的安全模型,Wilson解释说。他们使用OneFS中的本地复制移动所需的数据,在云中以与现场已有的安全策略、权限和身份管理参数相同的数据可用性。他们不必重构他们的工作流程,这意味着他们可以快速进入AI管道的下一部分,同时遵守他们的数据隐私和保护政策。

▉ 全面的AI基础设施

Dell表示,PowerScale存储可以根据它预定支持的特定AI工作流程(无论是模型保留、数据准备或大规模模型训练或调整等)进行优化,以提高效率、性能和成本。新发布的发布时,已经在Dell客户的现场测试中产生了有用的结果。Broadcom的CIO Alan Davidson表示,这些系统在提高其电子设计自动化(EDA)操作的性能方面提供了显著的帮助。

“与Dell合作意味着我的业务可以更快地创新。新的Dell PowerScale F710超出了我们的预期,在我们的EDA工作负载中提高了超过25%的性能,同时提高了数据中心的可持续性。” Alan Davidson告诉Dell。

这些系统进一步完善了可以服务复杂AI基础设施的产品组合,通过包括Dell和NVIDIA之间的合作伙伴关系在内的合作伙伴关系得到了增强。F710是第一个由NVIDIA DGX SuperPOD认证的基于以太网的存储设备,是该公司在3月与NVIDIA宣布的Dell AI Factory的关键部分。它是Dell基础设施和NVIDIA GPU及软件的端到端验证组合,支持整个生成性AI生命周期。

“没有人比Dell更擅长为企业构建端到端系统。”NVIDIA首席执行官Jensen Huang在公司的GTC 2024 AI开发者大会上说。“我们不仅有最佳的基础设施,而且我们还有专业知识,无论是在服务方面还是在最佳实践文档、经过验证。”

▉ 总结

如今,戴尔科技在存储领域拥有超过30年的专业经验,连续多年蝉联IDC全球企业级外部存储第一,拥有大量卓越的存储解决方案产品组合,利用现代化技术,持续领跑全球外部存储市场。戴尔科技除了有不同的产品、不同的平台、不同的声音带给用户以外,还有一整套的方法论和服务,帮助今天没有经验的用户更好地搭建他的AI的平台。

END
➤  往期精彩回顾


一文读懂GPU虚拟化
如何为服务器选择SSD?
一文读懂GPU通信互联技术
一文读懂:什么是数据库?
一文读懂:什么是磁带存储?
至强更“芯”,有啥不同?
详解IOPS、延迟等存储性能指标
为什么GPU比CPU更快?
一文读懂:什么是RISC-V?



“点赞”和“在看”也是一种美德
素材来源官方媒体/网络新闻
继续滑动看下一个
了不起的云计算
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存